Сборка генома de novo

1) Скачивание ридов в рабочию директорию

wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/000/SRR4240380/SRR4240380.fastq.gz

2) Удаление адапторов в ридах и триммирование. Для этого все отдельные файлы с последовательностями адаптеров были объединены в один функцией cat. Программа удаляет с конца нуклеотиды с качеством прочтения ниже 20 и оставляет риды длиной не меньше 32 нуклеотидов. После триммирования осталось 4865359 рида, а удалено 351959. До отчистки файл имеет вес примерно 112,4 Мб, после отчистки – 103,1 Mб.

java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240380.fastq.gz output.fq.gz ILLUMINACLIP:adapters.fasta:2:7:7 TRAILING:20 MINLEN:32

3) Подготовка k-меров. Программа подготавливает из файла с триммированными чтениями k-меры размером 31 нуклеотид.

velveth Assem 31 -short -fastq.gz output.fq.gz

4) Сборка на основе k-меров. В итоговой сборке N50 равно 12042 нуклеотидов. Средняя арифметическая длина контигов (без учета нулевых) примерно равна 1663 нуклеотидов. Также в сборке присутствует 276 контигов, длина которых меньше 100 нуклеотидов.

velvetg Assem

Описание первых трех контигов сборки

Информация о контигах была получена из файла stats.txt. Контиги выравнивались с геномом Buchnera aphidicola при помощи blastn (megablast) с настройками по умолчанию.

Номер контига

Длина контига

Покрытие

Число выравниваний

Границы контига на хромосоме

Identities/gaps

1

25915

27.4

6

1)333222 to 339010

2)343228 to 346547

3)327227 to 330003

4)324746 to 326950

5)341781 to 343052

6)330333 to 331006

4481/185

2589/118

2149/109

1682/66

1008/45

558/2

2

23850

24.7

4

1)236918 to 247596

2)232358 to 236859

3)229411 to 232057

4)248967 to 252161

8182/391

3466/130

2156/71

2527/94

3

23807

25.7

3

1)573092 to 582686

2)584329 to 587055

3)593743 to 594099

7212/461

2100/108

289/4